Խոսքի ճանաչում

Խոսքի ճանաչում, հաշվարկային լեզվաբանության միջդիսցիպլինար ենթահամակարգ, որը մշակում է մեթոդաբանություններ և տեխնոլոգիաներ, որոնք հնարավորություն են տալիս համակարգիչների միջոցով խոսակցական լեզվի տեքստը ճանաչել և թարգմանել։ Այն նաև հայտնի է որպես խոսքի ավտոմատ ճանաչում (ASR), համակարգչային խոսքի ճանաչում կամ խոսք դեպի տեքստային բառ (STT): Այն ներառում է գիտելիքներ և հետազոտություններ լեզվաբանության, համակարգչային գիտության և էլեկտրատեխնիկայի ոլորտներում։ Խոսքի ճանաչման որոշ համակարգեր պահանջում են «վերապատրաստում» (նաև կոչվում է «ընդգրկում»), որտեղ անհատ խոսնակը համակարգում ընթերցում է տեքստ կամ մեկուսացված բառապաշար։ Համակարգը վերլուծում է անձի առանձնահատուկ ձայնը և այն օգտագործում է այդ մարդու խոսքի ճանաչումը ճշգրտորեն կարգավորելու համար, որի արդյունքում ավելանում է ճշգրտությունը։ Դասընթացները չօգտագործող համակարգերը կոչվում են «խոսնակների անկախ» համակարգեր։ Դասընթացներն օգտագործող համակարգերը կոչվում են «խոսակցությունից կախված»։ Խոսքի ճանաչման դիմումները ներառում են ձայնային օգտագործողի միջերեսներ, ինչպիսիք են ձայնային հավաքումը (օր. ՝ «զանգահարել տուն»), զանգի զանգահարումը (օրինակ ՝ «ես կցանկանայի հավաքել զանգ»), դոմոտիկ սարքերի հսկողություն, որոնում (օրինակ ՝ գտնել մի دասկավառակ, որտեղ ասվում էին հատուկ բառեր ), տվյալների պարզ մուտքագրում (օր. ՝ վարկային քարտի համարը մուտքագրելով), կառուցվածքային փաստաթղթերի պատրաստում (օր. ՝ ռադիոլոգիայի զեկույց), խոսնակների բնութագրերի որոշում, խոսքի-տեքստի վերամշակում (օր. ՝ խոսքի մշակող կամ էլ. փոստ), և ինքնաթիռ։ (սովորաբար կոչվում է ուղղակի ձայնային մուտքագրում)։ Ձայնի ճանաչման տերմինը կամ խոսնակի նույնականացումը վերաբերում է խոսնակի նույնականացմանը, այլ ոչ թե այն, ինչ ասում են։ Բանախոսը ճանաչելը կարող է պարզեցնել խոսքի թարգմանության խնդիրը համակարգում, որը վերապատրաստվել է որոշակի մարդու ձայնի վրա, կամ այն կարող է օգտագործվել խոսնակի ինքնությունը հաստատելու կամ հաստատելու համար ՝ որպես անվտանգության գործընթացի մաս։ Տեխնոլոգիական տեսանկյունից խոսքի ճանաչումը երկար պատմություն ունի `հիմնական նորարարությունների մի քանի ալիքներով։ Վերջերս ոլորտը շահեց խորը ուսման և մեծ տվյալների առաջընթացում։ Առաջընթացները վկայում են ոչ միայն ոլորտում հրապարակված գիտական աշխատությունների թանկացման մասին, այլև առավել կարևոր է համաշխարհային արդյունաբերության կողմից ՝ խորը ուսուցման տարբեր մեթոդների ընդունման միջոցով ՝ խոսքի ճանաչման համակարգերի ձևավորման և տեղակայման գործում^[1]^[2]։

Պատմություն

Աճման հիմնական ոլորտներն էին `բառապաշարի չափը, խոսնակների անկախությունը և մշակման արագությունը^[3]^[4]։

Նախ-1970

1952 թ. - Bell Bell Labs- ի երեք հետազոտողներ ՝ Ստեֆան Բալաշեխը, Ռ. Բիդուլֆը և Կ. Հ. Դևիսը կառուցեցին մի համակարգ, որը կոչվում է "Օդրի" `միախոսով թվանշանների ճանաչման համար։ Նրանց

համակարգը տեղադրում էր ձևավորումները յուրաքանչյուր արտասանության էներգիայի սպեկտրում,

1960 - Գունար Ֆանտը մշակեց և հրապարակեց խոսքի արտադրության աղբյուր-ֆիլտրի մոդելը։
1962 - IBM- ը ցուցադրեց իր 16 բառանոց «Shoebox» մեքենայի խոսքի ճանաչման ունակությունը 1962-ի աշխարհի տոնավաճառում։
1969 - Bell Labs- ի ֆինանսավորումը չորացավ մի քանի տարի, երբ 1969 թվականին ազդեցիկ Johnոն Փիրսը բաց նամակ գրեց, որը քննադատաբար էր վերաբերվում և կանխարգելում էր խոսքի ճանաչման ուսումնասիրությունը։ Այս պարտությունը տևեց մինչև Պիրեսը թոշակի անցավ, և ստանձնեց L.եյմս Լ. Ֆլանագանը։

Ռաջ Ռեդին առաջին մարդն էր, ով ստացավ շարունակական խոսքի ճանաչում որպես 1960-ականների վերջին Ստանֆորդի համալսարանի շրջանավարտ ուսանող։ Նախորդ համակարգերը օգտվողներից պահանջում էին դադարեցնել յուրաքանչյուր բառից հետո։ Reddy's համակարգը թողարկել է խոսակցական հրամաններ խաղային շախմատ խաղալու համար։ Այս անգամ սովետական հետազոտողները հորինել են դինամիկ լարային ալգորիթմի դինամիկ ալգորիթմը և այն օգտագործել են այն ճանաչող ստեղծելու համար, որը կարող է գործել 200 բառանոց բառապաշարով։ DTW- ն վերամշակեց խոսքը ՝ այն բաժանելով այն կարճ շրջանակների, օրինակ. 10 սմ հատվածներ և յուրաքանչյուր շրջանակի վերամշակումը որպես մեկ միավոր։ Չնայած նրան, որ DTW- ին հաջորդում էին ավելի ուշ ալգորիթմները, այն իրականացնում էր տեխնիկան։ Բանախոսի անկախության հասնելը այս ժամանակահատվածում մնաց չլուծված։

1970–1990

1971 - DARPA- ն հինգ տարի ֆինանսավորեց Խոսքի փոխըմբռնման հետազոտությանը, խոսքի ճանաչման հետազոտությանը `որոնելով բառերի նվազագույն չափը 1.000 բառ։ Նրանք կարծում էին, որ խոսքի ըմբռնումն առանցքային է լինելու խոսքի ճանաչման գործընթացում առաջընթաց գրանցելու համար, ինչը հետագայում ապացուցեց, որ չի համապատասխանում իրականությանը։ Ծրագրին մասնակցում էին BBN, IBM, Carnegie Mellon և Stanford հետազոտական ինստիտուտները։ Այս վերականգնված խոսքի ճանաչման ուսումնասիրությունը գրեց Johnոն Պիրսի նամակը։
1972 - Մասաչուսեթս նահանգի Նյուտոն քաղաքում կայացավ IEEE ակուստիկայի, խոսքի և ազդանշանի մշակման խումբը։
1976 Ֆիլադելֆիայում անցկացվեց առաջին ICASSP- ն, որն այն ժամանակից ի վեր հանդիսանում է խոսքի ճանաչման վերաբերյալ հետազոտությունների հրապարակման հիմնական վայրը։
1980-ականների կեսերին IBM- ի Fred Fred Jelinek- ի թիմը ստեղծեց Tangora կոչվող ձայնային ակտիվացնող գրամեքենա, որը կարող էր գործել 20,000 բառանոց բառակապակցություն Jelinek- ի վիճակագրական մոտեցումը ավելի քիչ շեշտը դնում էր մարդու ուղեղի գործընթացների ձևավորման վրա և պատկերացնում է խոսքը `օգտվելով վիճակագրական մոդելավորման մեթոդներից։ Հ.Մ. Սա հակասական էր լեզվաբանների հետ, քանի որ HMM- ները չափազանց պարզունակ են մարդկային լեզուների շատ ընդհանուր առանձնահատկությունների համար։ Այնուամենայնիվ, HMM- ն ապացուցեց, որ խիստ օգտակար միջոց է խոսքի մոդելավորման համար և փոխարինեց դինամիկ ժամանակի ձգումը `դառնալով խոսքի ճանաչման գերիշխող ալգորիթմ 1980-ականներին։
1982 - Dragon Systems, հիմնադրվել է James and Janet M. Baker, IBM- ի մի քանի մրցակիցներից մեկն էր։

Գործնական խոսքի ճանաչում

1980-ականները նաև տեսան n-գրամ լեզուների մոդելի ներդրումը։

1987 - Հետադարձ մոդելը թույլ տվեց, որ լեզուների մոդելները օգտագործեն բազմակի n-գրամներ, իսկ CSELT- ն օգտագործեց HMM ՝ լեզուները ճանաչելու համար (ինչպես ծրագրային ապահովման, այնպես էլ ապարատային մասնագիտացված պրոցեսորներում, օրինակ ՝ RIPAC):

Ոլորտում առաջընթացի մեծ մասը պարտական է համակարգիչների արագ աճող հնարավորություններին։ 1976-ին DARPA ծրագրի ավարտին հետազոտողների համար մատչելի լավագույն համակարգիչը PDP-10- ն էր ՝ 4 ՄԲ խոյակով։ Խոսքի ընդամենը 30 վայրկյան վերծանելու համար կարող է տևել մինչև 100 րոպե^[5]։

Երկու գործնական արտադրանք էին.

1987 թ. - ճանաչում է Kurzweil կիրառական հետախուզության
1990 - Dragon Dictate, 1990 թ.-ին թողարկված սպառողական արտադրանք, AT&T- ն 1992 թ.-ին տեղակայեց Ձայնի ճանաչման զանգերի մշակման ծառայություն ՝ հեռախոսազանգեր ուղորդելու առանց մարդկային օպերատորի օգտագործման։ Տեխնոլոգիան մշակվել է Լոուրենս Ռաբիների և այլոց կողմից ՝ Bell Labs- ում։

Այս պահի դրությամբ, տիպական առևտրային խոսքի ճանաչման համակարգի բառապաշարն ավելի մեծ էր, քան մարդու միջին բառապաշարը։ Ռաջ Ռեդդիի նախկին ուսանող Xuedong Huang- ը CMU- ում զարգացրեց Sphinx-II համակարգը։ Sphinx-II համակարգը առաջինն էր, որ կատարում էր խոսնակ-անկախ, մեծ բառապաշար, խոսքի շարունակական ճանաչում, և այն լավագույն արդյունքն ունեցավ DARPA- ի 1992-ի գնահատման մեջ։ Շարունակական խոսքը մեծ բառապաշարով վարելը կարևոր հանգրվան էր խոսքի ճանաչման պատմության մեջ։ Հուանգը 1993 թ.-ին գտավ խոսքի ճանաչման խումբը Մայքրոսոֆթում։ Ռեյ Ռեդդիի ուսանող Կայ-Ֆու Լին միացավ Apple- ին, որտեղ, 1992-ին, նա օգնեց մշակել խոսակցական ինտերֆեյսի նախատիպը Apple համակարգչի համար, որը հայտնի է որպես Casper:

Lernout & Hauspie- ը, բելգիայում գործող խոսքի ճանաչման ընկերությունը, ձեռք բերեց մի շարք այլ ընկերություններ, այդ թվում 1997 թ.-ին Kurzweil Applied Intelligence- ը և 2000-ին Dragon Systems- ը։ L&H խոսքի տեխնոլոգիան օգտագործվում էր Windows XP օպերացիոն համակարգում։ L&H- ն արդյունաբերության առաջատարն էր, մինչև հաշվապահական սկանդալը չեղավ 2001 թվականին ընկերությանը։ L&H- ի խոսքի տեխնոլոգիան գնվել է ScanSoft- ի կողմից, որը դարձել է Nuance- ը 2005 թվականին^[6]։

Մոդելներ, մեթոդներ և ալգորիթմներ

Թե՛ ակուստիկ մոդելավորումը, և թե՛ լեզուների մոդելավորումը ժամանակակից վիճակագրորեն հիմնված խոսքի ճանաչման ալգորիթմների կարևոր մասերն են։ Թաքնված Մարկովի մոդելները (HMMs) լայնորեն օգտագործվում են շատ համակարգերում։ Լեզուների մոդելավորումն օգտագործվում է նաև բնական այլ մշակման այլ ծրագրերում, ինչպիսիք են փաստաթղթերի դասակարգումը կամ վիճակագրական մեքենայի թարգմանությունը։

Թաքնված Մարկովի մոդելները

Ընդհանուր նշանակության խոսքի ճանաչման ժամանակակից համակարգերը հիմնված են Թաքնված Մարկովի մոդելների վրա։ Սրանք վիճակագրական մոդելներ են, որոնք դուրս են գալիս խորհրդանիշների կամ քանակների հաջորդականություն։ HMM- ները օգտագործվում են խոսքի ճանաչման մեջ, քանի որ խոսքի ազդանշանը կարելի է դիտարկել որպես մի փոքր ստացիոնար ազդանշան կամ կարճաժամկետ ստացիոնար ազդանշան։ Կարճ ժամանակային մասշտաբով (օր. ՝ 10 միլիարդ վայրկյան) խոսքը կարելի է մոտեցնել որպես ստացիոնար գործընթաց։ Ելույթը կարելի է համարել Մարկովյան մոդել ՝ շատ բծախնդիր նպատակներով։ Ելույթի վերծանումը (այն տերմինը, թե ինչ է տեղի ունենում, երբ համակարգը ներկայացվում է նոր արտասանությամբ և պետք է հաշվարկի առավելագույն հավանական աղբյուրի նախադասությունը), հավանաբար, կօգտագործեր Viterbi ալգորիթմը ՝ լավագույն ուղին գտնելու համար, և այստեղ կա ընտրություն դինամիկ ձև ստեղծելու միջև։ համադրություն թաքնված Մարկովի մոդելը, որն իր մեջ ներառում է և՛ ակուստիկ, և՛ լեզվային մոդելի տեղեկատվություն, և՛ նախապես ստատիկ կերպով համատեղել այն (վերջավոր պետության փոխակերպիչ կամ FST, մոտեցում)։

Dynamic time warping (DTW) - ելույթի հիման վրա հիմնված խոսքի ճանաչում

Ժամանակային դինամիկ աժիոտաժը այնպիսի մոտեցում է, որը պատմականորեն օգտագործվել է խոսքի ճանաչման համար, բայց այժմ հիմնականում տեղահանվել է ավելի հաջող HMM- ի վրա հիմնված մոտեցմամբ։

Ժամանակային դինամիկ ոռոգումը ալգորիթմ է երկու հաջորդականությունների միջև նմանությունը չափելու համար, որը կարող է տարբեր լինել ժամանակի կամ արագության միջև։ Օրինակ, հայտնաբերվելու են քայլելու ձևերի նմանություններ, նույնիսկ եթե մեկ տեսանյութում մարդը դանդաղ քայլում է, իսկ եթե մեկ այլ տեսանյութում նա ավելի արագ է քայլում, կամ նույնիսկ եթե մեկ դիտարկման ընթացքում եղել են արագացումներ և դանդաղեցում։ DTW- ն կիրառվել է վիդեո, աուդիո և գրաֆիկայի վրա. Իսկապես, ցանկացած տվյալ, որը կարող է վերածվել գծային ներկայացման, կարող է վերլուծվել DTW- ի միջոցով։

Հայտնի ծրագիր է եղել խոսքի ավտոմատ ճանաչումը `խոսակցական տարբեր արագությունների հաղթահարման համար։ Ընդհանուր առմամբ, դա մի մեթոդ է, որը համակարգչին հնարավորություն է տալիս գտնել որոշակի սահմանափակումներով երկու տրված հաջորդականությունների (օր., Սերիա) միջև օպտիմալ համընկնում։ Այսինքն, հաջորդականությունները «warped» ոչ գծային են, որպեսզի իրար համընկնեն։ Այս հաջորդականության հավասարեցման մեթոդը հաճախ օգտագործվում է թաքնված Մարկովի մոդելների համատեքստում։

Ավարտի խոսքի ավտոմատ ճանաչում

2014 թվականից սկսած ՝ հետազոտության մեծ հետաքրքրություն է առաջացել «վերջավորության» ASR- ի նկատմամբ։ Ավանդական հնչյունաբանության վրա հիմնված (այսինքն ՝ HMM- ի վրա հիմնված բոլոր մոդելը) մոտեցումները պահանջում էին առանձին բաղադրիչներ և ուսուցում `արտասանության, ձայնային և լեզվական մոդելի համար։ Վերջավոր մոդելները համատեղ սովորում են խոսքի ճանաչողի բոլոր բաղադրիչները։ Սա արժեքավոր է, քանի որ այն պարզեցնում է վերապատրաստման գործընթացը և տեղակայման գործընթացը։ Օրինակ, N-gram- ի լեզվով մոդելը անհրաժեշտ է HMM- ի վրա հիմնված բոլոր համակարգերի համար, իսկ բնորոշ n-գրամ լեզուների մոդելը հաճախ մի քանի գիգաբայթ է վերցնում հիշողության մեջ, ինչը նրանց անարդյունավետ է դարձնում բջջային սարքերում տեղակայման համար։ Հետևաբար, Google- ի և Apple- ի ժամանակակից առևտրային ASR համակարգերը (2017-ի դրությամբ) տեղակայված են ամպի վրա և պահանջում են ցանցային կապ, ի տարբերություն տեղական սարքի։

End-to-end ASR- ի առաջին փորձը եղել է Connectionist Temporal Classification (CTC) համակարգով աշխատող համակարգերի հետ, որոնք ներդրվել են Google DeepMind- ի Google DeepMind- ի և Navdeep Jaitly- ի կողմից Տորոնտոյի համալսարանի 2014 թ.-ին։ Մոդելը բաղկացած էր կրկնվող նյարդային ցանցերից և CTC շերտից։ . Համատեղաբար, RNN-CTC մոդելը միասին սովորում է արտասանության և ձայնային մոդելը, սակայն այն անկարող է սովորել լեզուն `պայմանական անկախության ենթադրությունների պատճառով, որոնք նման են HMM: Հետևաբար, CTC մոդելները կարող են ուղղակիորեն սովորել խոսքի ձայնագրությունը անգլերեն նիշերին գծագրելու համար, բայց մոդելները շատ ընդհանուր ուղղագրական սխալներ են թույլ տալիս և տառերը մաքրելու համար պետք է ապավինեն առանձին լեզու ունեցող մոդելին։ Ավելի ուշ, Baidu- ն ընդլայնեց աշխատանքները չափազանց մեծ տվյալների շտեմարաններով և ցուցադրեց որոշակի առևտրային հաջողություններ չինական մանդարինում և անգլերենում։ 2016 թ.-ին Օքսֆորդի համալսարանը ներկայացրեց LipNet- ը ՝ ավարտված նախադասության մակարդակի վրա ավարտված նախադասությունների մակարդակի առաջին մոդելը ՝ օգտագործելով RNN-CTC– ի ճարտարապետության հետ զուգակցված սպատիոտեխնիկական փոխանակումները, գերազանցելով մարդկային մակարդակի կատարումը սահմանափակ քերականական տվյալների բազայում։ 2018-ին լայնածավալ CNN-RNN-CTC ճարտարապետությունը ներկայացվեց Google DeepMind- ի միջոցով ՝ հասնելով 6 անգամ ավելի լավ կատարողականի, քան մարդկային փորձագետները։

CTC- ի վրա հիմնված մոդելների այլընտրանքային մոտեցումը ուշադրության վրա հիմնված մոդելներն են։ Ուշադրության վրա հիմնված ASR մոդելները ներկայացվել են միաժամանակ Chan et al. Քարնեգի Մելոնի համալսարանի և Google Brain- ի և Bahdanau et al. Մոնրեալի համալսարանի 2016 թ.: «Լսեք, մասնակցեք և հեգեք» (LAS) անունով մոդելը, որը բառացիորեն «լսում է» ձայնային ազդանշանին, «ուշադրություն» է դարձնում ազդանշանի տարբեր հատվածներին և «ուղղագրում» է դուրս գրված մեկ նիշ միեւնույն ժամանակ. Ի տարբերություն CTC- ի վրա հիմնված մոդելների, ուշադրության վրա հիմնված մոդելները չունեն պայմանական անկախության ենթադրություններ և կարող են սովորել խոսքի ճանաչողի բոլոր բաղադրիչները `ներառյալ արտասանության, ձայնային և լեզվի մոդելը ուղղակիորեն։ Սա նշանակում է, որ տեղակայման ընթացքում կարիք չկա լեզվական մոդելի շուրջ վարել, ինչը շատ գործնական կդառնա սահմանափակ հիշողություն ունեցող դիմումներին տեղակայելու համար։ 2016 թվականի ավարտին ուշադրության վրա հիմնված մոդելները զգալի հաջողություն են գրանցել, ներառյալ CTC մոդելների գերազանցումը (արտաքին լեզվով մոդելը կամ առանց դրա)։ Առաջարկվել են տարատեսակ ընդլայնումներ `LAS- ի բնօրինակ մոդելի պահից ի վեր։ Latent Sequence Decompositions (LSD) - ն առաջարկել է Քարնեգի Մելոնի համալսարանի, MIT- ի և Google Brain- ի կողմից ուղղակիորեն արտանետել ենթաբառային միավորներ, որոնք ավելի բնական են, քան անգլիական նիշերը; and Spell »(WLAS) - ը կկատարի շրթունքների ընթերցանությունը` գերազանցելով մարդկային մակարդակի կատարումը։

Տես նաև

https://www.textfromtospeech.com/ru/voice-to-text/

Գրականություն

Pieraccini, Roberto (2012). The Voice in the Machine. Building Computers That Understand Speech. The MIT Press. ISBN 978-0262016858.
Woelfel, Matthias; McDonough, John (2009 թ․ մայիսի 26). Distant Speech Recognition. Wiley. ISBN 978-0470517048.
Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). «Conversational Interface Technologies». In Sears, Andrew; Jacko, Julie A. (eds.). The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, eds. (1997). Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. Vol. XII–XIII. Cambridge University Press. ISBN 978-0-521-59277-2.
Junqua, J.-C.; Haton, J.-P. (1995). Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
Pirani, Giancarlo, ed. (2013). Advanced algorithms and architectures for speech understanding. Springer Science & Business Media. ISBN 978-3-642-84341-9.

Արտաքին հղումներ

Speech Recognition
Speech Recognition: how to use?
Speech Recognition commands
Speech Recognition at demo-cubic Արխիվացված 2019-10-15 Wayback Machine
Speech Recognition (mozilla) Արխիվացված 2020-02-27 Wayback Machine
Speech Recognition (azure)
DeepSpeech
Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013
Speech Technology հոդվածը Curlie-ում (ըստ DMOZ-ի)

Ծանոթագրություններ

↑ «Распознавание речи | Центр Речевых Технологий | ЦРТ». Արխիվացված օրիգինալից 2013 թ․ ապրիլի 28-ին. Վերցված է 2013 թ․ ապրիլի 20-ին.
↑ http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
↑ «Արխիվացված պատճենը» (PDF). Արխիվացված է օրիգինալից (PDF) 2016 թ․ մարտի 5-ին. Վերցված է 2019 թ․ հոկտեմբերի 15-ին.
↑ http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf
↑ «ГОСТ Р 51061-97. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ». Արխիվացված է օրիգինալից 2013 թ․ ապրիլի 29-ին. Վերցված է 2013 թ․ ապրիլի 29-ին.
↑ «Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation». Fifthgen.com. Արխիվացված օրիգինալից 2013 թ․ նոյեմբերի 11-ին. Վերցված է 2013 թ․ հունիսի 15-ին.

[recRef-1] «Распознавание речи | Центр Речевых Технологий | ЦРТ». Արխիվացված օրիգինալից 2013 թ․ ապրիլի 28-ին. Վերցված է 2013 թ․ ապրիլի 20-ին.

[mazurenkRef-2] ttp://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf

[SidRef-3] «Արխիվացված պատճենը» (PDF). Արխիվացված է օրիգինալից (PDF) 2016 թ․ մարտի 5-ին. Վերցված է 2019 թ․ հոկտեմբերի 15-ին.

[terraRef-4] ttp://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf

[51061Ref-5] «ГОСТ Р 51061-97. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ». Արխիվացված է օրիգինալից 2013 թ․ ապրիլի 29-ին. Վերցված է 2013 թ․ ապրիլի 29-ին.

[6] «Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation». Fifthgen.com. Արխիվացված օրիգինալից 2013 թ․ նոյեմբերի 11-ին. Վերցված է 2013 թ․ հունիսի 15-ին.

[1]

[2]

[3]

[4]

[5]

[6]